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摘要 : [目的 /意义 ] 图像 语 义 标 注 的 基础 是 图 像 语义 标注 模型 的 构建 ,对 当前 主流 图 像 语 义 标 注 模 型 进行 
梳理 和 总 结 , 剖 析 其 在 图 像 语 义 标 注 中 的 优 缺点 ,可 为 后 续 相 关 研 究 提供 借鉴 和 参考 。 [方法 /过程 ] 采用 文献 
调研 法 ,总结 出 4 类 主要 的 图 像 语义 标注 模型 , 即 Eakins 模型 Jaimes & Chang 模型 \Kong 85:72 Panofsky 模型 。 
其 后 采用 上 比较 法 和 归纳 法 ,从 语义 层次 、 可 扩展 性 以 及 应 用 范围 和 方式 3 个 方面 对 前 三 类 模型 进行 比较 分 析 。 
[结果 /结论 ] Eakin 模型 语义 层次 最 全 面 ,语义 表达 能 力 最 强 , 应 用 范围 最 广 ;Kong 模型 的 可 扩展 性 最 强 ,适应 


性 最 好 。 
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语义 图 像 标注 ”图像 语义 标注 模型 


CO 近年 来 , 随 着 数字 影像 技术 和 多 媒体 技术 的 飞速 
发 展 , 各 种 数字 图 像 资源 大 量 涌现 ,如 何 对 这 些 海量 图 
像 问 源 进 行 有 效 检索 和 利用 ,成 为 一 个 日 益 迫 切 的 问 
题 s 早期 的 图 像 标 注 主要 是 通过 人 工 方式 选择 主题 词 
或 次 键 词 对 图 像 内 容 进 行 描述 ,虽然 精确 度 较 高 ,但 标 
注 写 作 量 大 ,标注 结果 往往 具有 较 强 的 主观 性 且 稳 定 
性 钞 差 。 随 着 计算 机 技术 的 发 展 ,基于 内 容 的 图 像 自 
动 受 注 逐 渐 成 为 主流 ,此 类 标注 主要 是 从 检索 角度 出 
发 G 利 用 计算 机 自动 提取 图 像 的 底层 视觉 特征 (如 颜 
fA EK AM) ,将 其 与 用 户 的 语义 查询 相 匹 配 ,但 是 
由 于 图 像 视觉 特征 并 不 能 完全 反映 用 户 的 检索 意图 ， 
导致 了 语义 鸿沟 的 存在 ”。 为 了 促进 数字 图 像 资 源 的 
共享 与 重用 ,需要 对 图 像 内 容 进行 有 效 的 语义 标注 , 增 
强人 们 对 图 像 内 容 的 理解 。 而 图 像 语 义 标 注 在 很 大 程 


标注 模型 的 这 种 层次 结构 ,也 常 被 称 为 图 像 层 次 模型 。 

目前 ,许多 领域 (如 计算 机 、 生 物 医学 、 图 书 情报 
等 ) 的 学 者 对 图 像 语义 标注 尤其 是 图 像 语 义 标注 模型 
进行 了 研究 ,为 了 对 国内 外 图 像 语义 标注 研究 现状 有 
一 个 较 全 面 的 了 解 ,我 们 在 Web of Science 数据 库 、 
CNKI 数据 库 和 Google Scholar 中 检索 到 1985 年 至 
2017 年 间 有 关 图像 语 义 标 注 模型 的 中 英文 文献 40 R 
篇 ,并 对 其 进行 了 梳理 和 总 结 。 分 析 发 现 ,虽然 这 些 文 
献 提 及 的 图 像 语 义 标注 模型 多 达 20 余 种 ,但 细 究 其 来 
源 和 内 容 , 主 要 自 4 个 基本 模型 (Eakins H Jaimes 
& Chang pin , Kong 模型 2 和 Panofsky 模型 ”1 ) fyi 
生 而 来 ,归属 于 四 大 家 族 , 如 表 1 所 示 。 除 了 这 四 类 
主流 模型 外 ,还 有 一 些 应 用 范围 较 小 的 模型 ,如 M. G. 
Krause 的 两 层 图 像 内 容 框架 ” ,B. Burford 等 的 六 层 模 
AU". Y. Badrjü R. Chbeir ff] Pj zt t9? 等 ,由 于 应 


度 上 要 依赖 于 图 像 语 义 标 注 模型 。 图 像 语义 标注 模型 
是 对 图 像 内 容 进 行 概念 化 抽象 而 得 的 概念 模型 ,通常 
采用 层次 化 结构 由 低 到 高 对 图 像 的 视觉 特征 (颜色 、 纹 
理 \ 形 状 ) 逻辑 特征 (如 所 含 对 象 . 对 象 间 的 相对 关 
系 ) 和 语义 特征 (如 场景 情感) 分 层次 进行 描述 ,有 助 
于 人 们 更 好 地 理解 并 描述 图 像 的 内 容 。 鉴 于 图 像 语义 


用 范围 过 罕 ,不 算 作 是 主流 的 图 像 语义 标注 模型 。 虽 
然 有 关 图 像 语义 标注 模型 的 研究 成 果 比 较 丰 硕 , 但 是 
对 这 些 模型 进行 全 面 系 统 梳理 与 分 析 的 研究 还 很 少 。 
本 文 从 四 个 基本 的 图 像 语义 标注 模型 出 发 ,对 主流 的 
图 像 语义 标注 模型 进行 全 面 梳理 与 比较 分 析 ,以 期 为 
图 像 语义 标注 模型 的 构建 和 应 用 提供 借鉴 与 参考 。 
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R1 图 像 语义 标注 模型 分 类 
类 别 基本 模型 主要 衍生 模型 
Eakins 模型 家 族 J. P. Eakins 的 图 像 语义 层次 模型 [?] e D. Hong 等 的 三 层 模型 [19] 
。 于 永 新 的 四 层 模型 [2 
。 蔡 昌 许 的 七 层 模型 [4 
。 喜 杨 的 七 层 模型 [21] 
。 王晓光 和 徐 雷 的 数字 图 像 语义 描述 层次 模型 [0] 


Jaimes & Chang 模型 家 族 


A. Jaimes 和 S. F. Chang 的 图 像 语义 层次 模型 [3] eL 


Hollink 等 的 三 层 模型 124] 


Kong 模型 家 族 H. Kong 等 的 图 像 语义 标注 模型 [261 
Panofsky 模型 家 族 E. Panofsky 的 图 像 语 义 层次 模型 [3] 
emo 无 


20D 面向 检索 的 Eakins 图 像 语 义 层 次 模型 

C91996 年 ,英国 学 者 机 P. Eakins 提出 了 一 个 简单 
有 是 记 用 的 层次 化 图 像 语 义 模型 (以 下 简称 “Eakins ft 
IEN ,从 检索 需求 的 角度 首先 将 图 像 语 义 内 容 自 下 而 
上 烈 分 为 3 个 基本 层级 (底层 特征 层 ,对象 层 和 语义 概 
DE) ,然后 又 对 每 个 层级 进行 更 细 粒 度 的 划分 ,如 图 
sum 


meum 5a) = 
ieval by abstract attributes 语义 概念 层 
named events or types of | | |  jl1--- > 情感 语义 
activity =-= a perd 行为 语义 
pictures with emotional or ze -——41 场景 语义 
symbolic significance 一 
retrieval by logical features 对 象 语义 
objects of a given type 一 十 十 一 二 一 一 一 EPE 二 三 本 对 象 语义 
individual objects or persons- T -]- a 对 象 空间 关系 
z 


| 


7 
- d 
d 
7 
a 
retrieval by primitive features 


colour feature - —— 47] - — -— 

texture 一 一 一 一 ak -一 一 上 上- P 底层 特征 

T ES e, a, ERE) 
shape 一 一 2 L-* 

spatial location m 

combination of the above 


T 


(a) (b) 


1 Eakins 模型 及 对 其 的 重新 阐释 


原始 特征 层 (Primitive Features) :原始 特征 是 指 客 
观 的 .直接 来 源 于 图 像 本 身 的 纯粹 视觉 特征 ,可 细 分 为 


* E. K. Chung fil J. W. Yoon 的 三 


层 模型 [5] 


e J. W. Yoon fI E. K. Chung 的 改进 三 


层 模型 025] 


。 J. S. Hare 的 五 层 模型 [61 
e 邓 涛 等 的 四 层 模型 [27] 

。 史 婷 婷 等 的 三 层 模 型 [28] 
* S. Shatford 的 二 维 模型 [30 
e N. Conduit 和 了 .Rafferty 的 二 维 细 化 模型 [33] 
e P. Rafferty 和 R. Hiddenley 的 六 层 模型 [34] 

* F. Fauzi 和 M. Belkhatir 的 五 层 框架 1351 

* M. G. Krause 的 两 层 图 像 内 容 框架 [7] 

B. Burford 等 的 六 层 模 型 [8] 
。 Badr 和 Chbeir 的 两 层 模型 [9] 


5 类 , 即 颜色 特征 、 纹 理 特征 形状 特征 空间 位 置 特征 
和 上 述 4 种 特征 的 综合 , 均 不 涉及 图 像 的 语义 内 容 。 
面向 该 层 的 图 像 检 索 不 需要 参考 任何 外 部 知识 。 基 于 
内 容 的 图 像 检 索 多 位 于 该 层 ,被 广泛 应 用 于 各 种 专业 
图 像 检 索 , 如 商标 图 像 注册 过 程 中 商标 图 像 的 检 
过 

逻辑 层 (Logical Features) : 逻辑 特征 是 指 基 于 图 
像 的 视觉 特征 对 图 像 中 的 对 象 进行 某 种 程度 的 逻辑 推 
理 而 导出 的 特征 ,涉及 图 像 的 语义 内 容 。 基 于 逻辑 特 
征 的 图 像 检 索 可 进一步 细 分 为 :检索 特定 类 型 对 象 的 
图 像 检索 单个 对 象 或 个 人 的 图 像 。 面 向 该 层 的 图 像 
检索 比 面向 原始 特征 层 的 语义 检索 更 具有 普 适 性 。 

抽象 属性 层 (Abstract Attributes) : 抽象 属性 是 指 
对 图 像 中 对 象 所 处 场景 的 目的 和 意义 进行 抽象 和 主观 
推理 所 得 到 的 特征 。 基 于 抽象 属性 的 图 像 检 索 可 进 一 
步 细 分 为 :检索 某 一 事件 或 活动 的 图 像 .检索 具有 情感 
或 象征 意义 的 图 像 。 面 向 该 层 的 图 像 检索 ,不 仅 需要 
理解 图 像 的 语义 内 容 和 背景 知识 ,还 需 具 备 一 定 的 推 
理 和 判断 能 

Eakins 模型 是 较 早 的 图 像 语义 模型 , 其 提出 的 目 
的 主要 是 用 于 图 像 检索 而 非 图 像 的 共享 与 重用 。 在 
Eakins 模型 提出 之 前 ,美国 东 卡 罗 来 纳 大 学 和 美国 路 
易 斯 安 那 大 学 拉 法 叶 分 校 的 学 者 V. N. Gudivada 和 
V. V. Raghavan 于 1995 年 提出 过 一 个 包含 原始 特征 
层 和 逻辑 特征 层 的 两 层 图 像 语义 模型 ” ,该 模型 是 
Eakins 模型 的 基础 ,但 由 于 缺少 对 象 所 处 场景 的 抽象 
与 描述 ,因此 语义 表达 能 力 明 显 弱 于 Eakins 模型 。 
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2.2 面向 语义 标注 的 Eakins 模型 的 微调 与 重 释 

在 Eakins 模型 提出 后 ,国内 学 者 (如 武人 杰 '" , 张 
PEUS PERE T ) 对 其 进行 了 重新 解读 .阐释 和 微调 ， 
试图 使 其 能 够 应 用 于 图 像 语义 标注 ,相关 改进 方法 基 
本 一 致 ,即将 Eakins 模型 重新 闻 释 为 如 图 1(b) 所 示 
DEMY- 

底层 特征 层 : 该 层 与 Eakins 模型 的 原始 特征 层 基 
本 对 应 ,不 反映 图 像 的 语义 内 容 信息 ,但 去 除了 原始 特 
征 层 中 的 空间 位 置 特征 ,只 包含 图 像 颜色 纹理、 形状 
三 类 原始 特征 。 

对 象 层 : 该 层 是 Eakins 模型 逻辑 层 和 部 分 原始 特 


义 层 和 对 象 空间 层 一 一 提升 为 与 底层 特征 层 和 语义 概 
念 层 相 并 列 的 一 级 层级 ,衍生 出 一 个 四 层 模 型 ”。 虽 
然 该 模型 表达 的 语义 与 Eakins 模型 没有 本 质 区 别 , 但 
是 突出 了 对 实体 关系 的 描述 。 

此 外 ,还 有 一 些 研究 人 员 对 Eakins 模型 的 语义 层 
次 进行 了 扩展 ,提出 了 语义 更 加 丰富 的 多 层 模型 。 获 
BYrRISZE T 2005 年 和 2007 年 分 别提 出 了 各 自 的 七 
层 语义 模型 ,这 两 个 模型 的 层级 基本 一 致 ,前 六 层 与 
Eakins 模型 的 6 个 子 层 相同 ,但 在 此 基础 上 增加 了 第 
七 层 ,用 来 表达 图 像 真实 的 .抽象 的 更 高 层 的 语义 , 即 
人 们 对 图 像 内容 的 真正 理解 ,通常 指 图 像 反映 出 的 真 


征 层 的 综合 , 细 分 为 对 象 语义 层 和 对 象 空间 层 两 个 子 
层次 。 前 者 包含 图 像 中 涉及 的 具体 对 象 ,与 Eakins fi 
型 的 逻辑 层 相对 应 ;后 者 指 图 像 中 对 象 间 的 相互 位 置 
,与 Eakins 模型 原始 特征 层 中 的 空间 位 置 相对 应 。 


实情 景 (如 婚礼 SE) “” 。 与 前 六 层 相 比 ,更 高 
层 语义 层 侧重 于 从 图 像 全 局 出 发 ,对 图 像 整体 的 内 涵 
进行 描述 ,抽象 度 更 高 。 棕 昌 许 和 绢 杨 的 这 两 个 模型 
虽然 没有 本 质 上 的 区 别 ,但 是 适用 的 图 像 类 型 有 所 不 


语义 概念 层 : 该 层 与 Eakins 模型 的 抽象 属性 层 相 


同 ,前 者 针对 一 般 静 态 图 像 ,后 者 针对 动画 素材 图 像 。 
3 Jaimes & Chang 图 像 语 义 层 次 模型 


及 其 衍生 模型 


CDEakins 模型 是 一 个 整体 ,各 层 之 间 存 在 着 依赖 关 
系 , 中 高 层 语义 的 获取 通常 建立 在 底层 特征 的 基础 上 ， 
根据 先 验 知识 和 判断 推理 得 到 ,但 目前 要 实现 高 层 语 
准确 高 效 提取 还 存在 一 定 的 困难 。 重 新 闻 释 后 的 
Eakihs 模型 与 原 模型 并 没有 本 质 上 的 区 别 , 但 是 语义 
层次 变 得 更 加 清晰 明确 ,通用 性 更 强 ,这 也 是 该 模型 
在 国内 图 像 语 义 标注 研究 中 得 到 广泛 应 用 的 主要 原 
因 。 下 文 提 及 的 Eakins 模型 均 指 经 过 微调 和 重新 闻 释 
的 模型 。 
2.3 Eakins 模型 的 衍生 模型 

Eakins 模型 创建 后 ,一 些 研究 人 员 针 对 特定 应 用 
场景 ,对 该 模型 的 语义 层次 进行 增 减 和 调整 ,产生 了 许 
多 衍生 版 本 。1998 年 ,D，Hong 等 对 Eakins 模型 的 子 
层级 进行 了 局 部 调整 ,将 图 像 内 容 划分 为 基础 视觉 内 
容 层 、 对 象 内 容 层 和 场景 内 容 层 三 个 层次 "” ,分别 对 
应 于 Eakins 模型 的 底层 特征 层 .对象 语义 层 和 场景 语 
义 层 。 该 模型 调整 的 目的 是 为 了 针对 特定 的 检索 情景 
灵活 地 描述 图 像 ,但 其 主要 缺陷 是 将 场景 视 为 图 像 的 
全 局 描述 ,没有 考虑 行为 语义 和 情感 语义 ,语义 表达 能 
力 比 Eakins 模型 弱 。 国 内 学 者 于 永 新 认为 图 像 语义 鸿 
沟 主要 体现 在 对 图 像 中 实体 间 关 系 描述 得 不 够 充分 ， 
因此 将 Eakins 模型 对 象 层 中 的 两 个 子 层级 一 一 对 象 语 
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3.1 Jaimes & Chang 图 像 语义 层次 模型 

1998 年 ,A. Jaimes 和 S. F. Chang 提出 了 一 个 用 
于 图 像 自 动 分 类 的 视觉 信息 分 类 框架 ,该 框架 自 下 而 
上 包含 区 域 感知、 对 象 部 件 . 对 象 . 场 景 五 个 层次 。 
2000 年 ,两 人 综合 运用 多 领域 (如 艺术 和 认 知 心理 学 
等 ) 的 知识 将 该 框架 改造 为 面向 图 像 索 引 的 概念 框架 
(以 下 简称 "Jaimes & Chang 模型 ”) B 。 在 该 框架 中 ， 
图 像 内 容 被 划分 为 非 视 觉 和 视觉 两 类 ,如 图 2 所 示 。 
非 视 觉 内 容 是 指 与 图 像 密切 相关 但 并 不 直接 作为 图 像 
一 部 分 的 信息 ,主要 包括 物理 属性 .目录 信息 和 相关 信 
息 。 视 觉 内 容 是 指 观察 图 像 时 直接 感觉 到 的 信息 , 自 
上 自 下 分 为 呈 金 字 塔 结构 的 IO 个 等 级 :类 型 技术 
(type technology ) , 4 J&j 4j fi ( global distribution ) 局 部 
结构 (local structure) ,全 局 组 合 (global composition ) ,— 
般 对 象 ( generic objects) ,一般 场景 (generic scene) ,.H. 
体 对 象 (specific objects) .具体 场景 (specific scene) 、 抽 
Z Xf Z (abstract objects ) 和 抽象 场景 (abstract 
scene)"” 。 其 中 ,前 四 层 属于 对 图 像 句 法 或 知觉 层面 
的 描述 ,涉及 人 或 机 器 所 感知 的 颜色 纹理、 元 素 空间 
布局 等 特征 ,基于 内 容 的 图 像 标 注 和 检索 主要 关注 这 
四 个 层次 ;后 六 层 是 对 语义 或 视觉 概念 的 描述 ,基于 语 
义 的 图 像 标 注 和 检索 则 主要 关注 这 六 个 层次 。 与 
1998 年 提出 的 视觉 信息 分 类 框架 相 比 ,该 模型 更 加 关 
注 对 象 语义 和 场景 语义 ,从 一 般 、 具 体 和 抽象 三 个 层 首 
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对 图 像 中 的 对 象 和 图 像 所 反映 的 场景 展开 更 细 粒 
描述 ,但 对 于 不 以 对 象 和 场景 为 标注 重点 的 图 像 


度 的 
适用 


性 并 不 强 。 


非 视觉 内 容 
(non-visual content | 


物理 属性 (physical attributes) 
I5 H fi (biographical information) 
相关 信息 (associated information) 


| 知识 Cknowledge) ——— — — — — — — —— 
句法 /知觉 类 型 技术 
(syntax/ (type technology) 
视觉 | Pereepb 全 局 分 布 (global distribution) 
内 容 局 部 结构 (local structure) 
(visual 全 局 组 合 (global composition) 
content) - 般 对 象 (generic objects) 
语义 / 视 - 般 场 景 (generic scene) 
iC REO: 具体 对 象 (specific objects) 
semantics! 具体 场景 (specific scene) 
visual - 
== concept) 抽象 对 象 (abstract objects) 
9 抽象 场景 (abstract scene) 
> 
à 图 2 Jaimes & Chang 图 像 语 义 层 次 模型 
对 Jaimes & Chang 模型 的 改进 和 调整 概念 层 大 致 相对 应 ,但 增加 了 人 、 时 间 、 地 点 和 活动 。 


COlaimes & Chang 模型 是 一 个 比较 通用 的 语义 标注 
模 到 ,一 些 学 者 对 该 模型 进行 改进 ,生成 了 适用 于 不 同 
应 用 的 衍生 模型 。2004 年 ,L，Hollink 等 为 了 解 
闫 用户 需求 与 当前 图 像 检 索 技术 不 匹配 的 问题 ,对 
Js & Chang 模型 的 子 层次 做 了 局 部 增 减 和 调整 ,使 
模型 的 描述 粒度 变 粗 ,能 够 填 括 更 多 的 语义 内 容 , 生 成 
一 符 自 下 而 上 包含 概念 .知觉 和 非 视觉 三 个 层级 的 用 
洛 像 描述 分 类 框架 ,其 中 概念 层 对 应 Jaimes & Chang 
遍 的 语义 /视觉 概念 层 并 增加 了 时 间 、 地 点 和 事件 ， 
gE Jaimes & Chang 模型 的 句法 /知觉 层 大 致 相 
对 确 , 但 没有 进一步 划分 子 层次 , 非 视觉 层 与 Jaimes & 
Chang 模型 的 非 视觉 内 容 层 大 致 相对 应 ,主要 关注 图 
像 的 描述 性 信息 , 即 图 像 的 元 数据 ,如 创建 者 .日 期 和 
题名 等 。 该 框架 没有 对 Jaimes & Chang 模型 的 语义 
层次 进行 扩展 ,只 是 对 该 模型 的 子 层次 做 了 局 部 
和 调整 ,使 模型 的 描述 粒度 变 粗 ,能 够 圳 括 更 多 的 语义 
内 容 。 

2011 4E, E. K. Chung 和 J. W. Yoon 在 深入 分 
析 图 像 检索 需求 底层 结构 的 基础 上 ,提出 了 一 个 图 
像 特征 描述 框架 , 自 上 而 下 包含 3 个 层次 : 非 视觉 特 
征 层 、 语 法 特征 层 和 语义 层 中 。 非 视觉 特征 与 与 
Jaimes & Chang 模型 的 非 视觉 内 容 层 大 致 相对 应 ,但 
将 相关 信息 扩大 到 上 下 文 信息 ,即将 相关 信息 作为 
上 下 文 信 息 的 子 类 之 一 ;语法 特征 层 与 Jaimes & 
Chang 模型 的 句法 /知觉 层 大 致 相对 应 ,但 删除 了 类 
型 技术 ;语义 层 与 Jaimes & Chang 模型 的 语义 /视觉 


该 模型 同样 仅 是 对 Jaimes & Chang 模型 内 部 语义 层 
次 的 粒度 大 小 和 包含 的 语义 内 容 做 增 减 和 微调 ,但 
该 模型 扩展 了 Jaimes & Chang 模型 的 语义 /视觉 概念 
层 的 语义 内 容 , 总 体 的 语义 表达 能 力 比 Jaimes & 
Chang 模型 有 所 提升 。 同 年 ,两 人 通过 研究 发 现 ,用 
自然 语言 表达 的 提问 能 够 更 好 地 反映 用 户 的 图 像 检 
索 需 求 , 因 此 将 上 述 的 三 层 图 像 特 征 描述 框架 又 调 
整 为 图 像 需 求 特征 .图像 特征 和 相关 信息 3 个 层 
次 二 。 其 中 ,图 像 需求 特征 是 指 用 户 图 像 检 索 需 求 
的 上 下 文 环境 ,如 检索 动机 等 ,图 像 特 征 层 包含 
Jaimes & Chang 模型 中 的 非 视 觉 特征 、 句 法 /知觉 对 
象 特 征 和 语义 /视觉 概念 特征 ,相关 信息 层 是 将 
Jaimes & Chang 模型 中 非 视 觉 特 征 的 相关 信息 单独 
做 为 一 个 层级 。 该 模型 在 Jaimes & Chang 模型 的 语 
义 层 次 的 基础 上 ,增加 了 图 像 需求 特征 层 ,使 模型 的 
整体 语义 表达 能 力 增 强 , 但 是 也 增加 了 模型 的 复杂 
度 和 标注 难度 。2006 4E,J. S. Hare 等 为 了 弥合 图 像 
检索 过 程 中 存在 的 语义 鸿沟 问题 ,将 语义 鸿沟 的 特 
征 描述 为 从 原始 媒体 (图 像 ) 到 媒体 内 容 的 全 语义 
(对 象 关系 及 其 他 ) 理解 ,提出 了 五 层 语义 渐变 模型 ， 
包括 原始 图 像 .视觉 描述 符 、 对象. 对象 名 称 .语义 5 
个 层级 ,试图 缩小 语义 鸿沟 。 与 Jaimes & Chang 模 
型 相 比 ,该 模型 的 语义 层次 划分 粒度 较 粗 ,没有 侧重 
于 对 对 象 和 场景 的 细 粒 度 描述 ,适用 于 语义 粒度 较 
粗糙 的 图 像 标注 。 
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4 Kong 图 像 语 义 标注 模型 及 其 相关 


模型 
4.1 Kong 图 像 语义 标注 模型 

2006 4E ,H.. Kong 等 从 图 像 中 包含 的 对 象 着 手 ,对 
图 像 内 容 进 行 分 类 ,提出 了 一 个 可 扩展 的 图 像 语 义 标 
注 本 体 模型 (以 下 简称 “Kong 模型 " ) 29 。 该 模型 首先 
包含 一 个 顶层 本 体 ,定义 了 描述 图 像 中 对 象 类 型 的 7 
个 类 , 即 人 动物. 植物、 人 造 品 .食物 、 自 然 对 象 .自然 
现象 ,提供 通用 的 图 像 标注 框架 , 较 好 地 圳 括 了 图 像 对 
象 层 的 语义 内 容 , 但 是 语义 粒度 较 粗 。 为 了 表示 对 象 
与 背景 间 以 及 对 象 间 的 空间 关系 ,该 模型 中 还 定义 了 
一 个 空间 本 体 ,包含 8 个 方向 关系 和 8 个 拓扑 关系 。 
此 处 ,为 了 使 图 像 检索 获得 更 高 的 查 准 率 ,H，Kong 等 
使 用 个 性 化 本 体 对 图 像 进行 语义 标注 ,允许 用 户 根据 
需要 在 顶层 本 体 基础 上 建立 个 性 化 本 体 。 图 3 所 示 为 
项 局 本 体 向 个 性 化 本 体 转化 的 过 程 示例 ,展示 如 何 通 
过 在 项 层 本 体 中 添加 关于 特定 对 象 的 外 部 知识 实现 项 
层 杰 体 向 个 性 化 本 体 的 转化 。 辟 如 ,要 对 篮球 运动 员 
蜂 建 联 的 图 像 进行 语 义 标注 ,用 户 拥有 关于 该 篮球 运 
动 轴 的 许多 外 部 知识 ,其 中 之 一 是 “易建联 是 一 位 中 国 
轩 乾 ,他 是 广东 宏 远 篮球 俱乐部 的 运动 员 ”。 用 户 首先 
从 疯 层 本 体 中 找到 与 图 中 对 象 “易建联 "的 国籍 和 所 
在 狂 乐 部 相对 应 的 类 “自然 对 象 " 和 “人 造 品 ” ,然后 通 
韦 这 些 类 的 具体 实例 "中国" 和 “广东 宏 远 " 与 对 象 “ 易 
建 联 "建立 关联 ,生成 一 个 针对 “易建联 "的 个 性 化 本 
fic 
473 Kong 模型 的 相关 模型 

”一 些 学 者 在 研究 中 借鉴 了 日，Kong 等 以 对 象 为 中 
心 的 图 像 内 容 分 类 方法 和 基于 个 性 化 本 体 对 对 象 进行 
语义 标注 的 思路 ,构建 了 一 些 基于 本 体 的 图 像 语 义 标 
注 与 检索 模型 。2008 年 , 邓 涛 等 提出 了 一 个 基于 本 体 
的 图 像 语义 标注 与 检索 模型 ImageQ ,其 中 包含 了 一 个 
四 层 的 图 像 内 容 描述 模型 。 该 模型 自 上 而 下 包含 四 个 
层次 : 图 像 元 数据 , 即 反映 图 像 外 部 特征 的 元 数据 ; 客 
体 对 象 及 其 所 处 背景 和 所 处 场景 信息 ; 主体 对 象 及 其 
相关 属性 信息 ;主客 体 对 象 间 的 语义 关系 ”。 与 Kong 
模型 相 比 ,该 模型 仍 重点 关注 对 象 层 语义 ,但 是 扩展 了 
与 对 象 相 关 的 语义 以 及 图 像 的 外 部 特征 ,语义 表达 能 
力 更 强 。 在 该 模型 中 , 邓 涛 等 借鉴 Kong 模型 的 研究 思 
路 ,针对 具体 应 用 领域 , 仅 提供 顶层 通用 本 体 模型 ,但 
允许 用 户 对 顶层 本 体 进行 更 新 ,包括 添加 、 修 改 和 删除 
本 体 中 的 概念 、 属 性 和 关系 ,最 终 实现 领域 本 体 的 个 性 
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顶层 本 体 (top level notology) 


自然 对 象 
Lad (natual object) 


构建 个 性 化 本 体 来 增加 新 的 信息 (constructed personalized ontology to add the new information) 


食物 自然 对 象 国籍 中 国 
(food) (natual object) (nationality) (China) 
rod hog 易建联 
< (Jianlian Yi) 
sr 2 广东 宏 远 
篮球 64, (Guangdong 
(basketball) que Hongyuan) 
(club) 


3 项 层 本 体 向 个 性 化 本 体 的 转化 


化 。2010 年 , 史 婷 婷 等 借鉴 邓 涛 等 的 上 述 四 层 图 像 内 
容 描 述 模型 ,提出 了 一 个 三 层 图 像 内容 描 述 模型 ” 。 
与 邓 涛 等 的 四 层 模 型 相 比 ,该 模型 去 除了 图 像 元 数据 
特征 层 , 不 对 图 像 的 外 部 特征 进行 描述 ,只 重点 关注 
像 的 内 部 语义 特征 ,但 总 体 上 采用 了 与 H.， Kong 等 类 
似 的 思路 , 即 以 对 象 为 中 心 构建 了 个 性 化 本 体 ,这 种 以 


对 象 为 中 心 的 建 模 思 路 很 好 地 增强 了 图 像 检 索 系 统 的 
适应 性 。 


5 Panofsky 图 像 语义 层次 模型 及 其 


衍生 模型 
5.1 Panofsky 图 像 语义 层次 模型 

1955 ^E,E. Panofsky 在 对 文艺 复兴 时 期 的 艺术 图 
像 进行 研究 时 ,提出 了 一 个 如 图 4 所 示 的 分 析 模型 ( 以 
下 简称 “Panofsky 模型 ” ) ,包含 3 个 层次 :前 图 像 志 描 
述 (pre-iconography description ) , 指 对 图 像 所 表达 的 主 
题 的 描述 ,包括 事实 和 情感 ;图 像 志 分 析 (iconography 
analysis) , 指 对 图 像 中 可 以 识别 名 称 的 客观 事物 的 分 
析 ; 图 像 学 阐释 (iconology interpretation ) , 指 对 图 像 内 
涵 的 阐释 '” 。 该 模型 主要 关注 图 像 的 高 层 语义 信息 ， 
不 考虑 图 像 的 原始 物理 特征 。 值 得 注意 的 是 ,该 模型 
只 是 一 个 理论 分 析 框 架 ,而 非 一 个 具体 的 语义 标注 模 
型 ,无 法 直接 应 用 于 图 像 的 语义 标注 。 
5.2 ”对 Panofsky 模型 的 扩展 

为 了 将 Panofsky 模型 应 用 于 具体 的 图 像 标 注 , 一 
些 学 者 对 Panofsky 模型 进行 了 扩展 ,提出 了 语义 更 加 
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图 像 的 内 涵 


图 像 中 可 以 识别 名 称 的 客观 事物 


图 像 所 表述 的 主题 


4 Panofsky 图 像 分 析 模 型 


丰富 的 模型 。1986 4E,S. Shatford 通过 对 Panofsky 模 
型 的 三 个 语义 层次 进行 横向 扩展 ,提出 了 一 个 被 称 为 
Panofsky-Shatford 多 面 矩 阵 的 二 维 模型 ,试图 应 用 于 所 
有 类 型 图 像 的 语义 标注 ”” 。 该 模型 包含 通用 、 具 体 
和 抽象 3 个 层级 ,分 别 与 Panofsky 模型 的 前 图 像 志 B 
像 志 和 图 像 学 3 个 层次 相对 应 ,每 个 层级 下 又 设 who、 
what, when 和 where 四 个 子 层级 ,分 别 对 应 图 像 中 的 对 
件 (活动 ) .时 间 和 地 点 ,形成 12. 类 图 像 特征 , 极 
JO & MAMET Panofsky 模型 的 语义 内 容 "。 例 
伦 竹 象 的 地 点 表示 象征 性 的 地 点 (如 天 堂 ) 。 该 模型 
EJE N. Conduit 和 P. Rafferty 应 用 到 图 像 标 引 , 根 


[eo 


据 图 像 库 中 的 用 户 提问 和 33 个 图 像 管理 员 在 工作 中 
ESI 村 征 , 对 矩阵 做 了 进一步 细 化 ,如 将 通用 类 
地 直 细 化 为 室内 和 室外 宇 ] 。 这 些 细 化 工作 使 得 Panof- 
slSSShatford 多 面 矩 阵 更 加 丰富 和 完善 。2007 年 ,P. 
Rafférty 和 R. Hidderley 借鉴 Panofsky 等 的 方法 来 阐释 
图 特 ,从 图 像 内 容 标 引 的 角度 ,提出 了 一 个 六 层 模 型 ， 
包办 书目 信息 ,结构 性 内 容 ,整体 内 容 .对象 内 容 .对 图 
像 著 体 的 解释 以 及 对 其 中 对 象 的 解释 。 该 模型 扩 
谍 克 图 像 的 外 部 物理 特征 ,重点 关注 图 像 的 中 高 层 语 
义 特征 ,侧重 于 对 对 象 和 情感 的 描述 。2013 年 ,F. 
Fauzi 和 M. Belkhatir 借鉴 Panofsky 模型 以 及 其 他 相关 
模型 ,提出 了 一 个 以 用 户 为 中 心 的 .基于 概念 的 面向 自 
动 多 面 化 索引 的 框架 。 该 框架 分 析 了 Web 图 像 上 下 
文 信息 的 语义 ,并 将 其 分 为 5 个 广泛 的 语义 概念 :中 信 
号 : 指 图 像 的 底层 视觉 特征 ;@@ 对 象 : 指 图 像 中 的 实体 ， 
分 为 有 生命 和 无 生命 两 种 ;@ 关 系 : 指 图 像 中 对 象 间 的 
关系 ,以 及 创作 者 、 图 像 类 型 等 外 部 特征 关系 ;图 声 
景 : 指 基于 图 像 包 含 的 所 有 对 象 ,将 图 像 描述 为 一 个 
整体 ;@ 抽 象 : 指 图 像 中 表达 的 抽象 概念 "5 。 该 框架 


6 模型 比较 分 析 


TE Bl 9c JR 4 类 图 像 语 义 标注 模型 的 基础 上 ,本 
节 对 上 述 Eakins 模型 Jaimes & Chang 模型 和 Kong 模 
型 进行 深入 比较 , 由 于 Panofsky 模型 只 是 一 个 理论 分 
析 框 架 而 非 一 个 具体 的 模型 ,因此 在 此 不 将 其 纳入 对 
比分 析 范 围 。 鉴 于 每 个 家 族 中 的 衍生 模型 均 数 量 众 
多 ,我 们 只 选取 每 类 模型 中 的 原始 基本 模型 最 为 分 析 
比较 对 象 , 从 语义 层次 、 可 扩展 性 及 应 用 范围 和 方式 3 
个 方面 展开 分 析 。 评 价 图 像 语义 标注 模型 有 两 个 重要 
指标 :一 是 语义 表达 能 力 , 即 模型 能 否 将 图 像 所 包含 的 
语义 完整 地 表达 出 来 以 及 其 表达 的 程度 ;二 是 适应 性 ， 
即 模型 是 否 能 够 满足 不 同 用 户 的 需求 ,提高 适应 性 的 
一 个 重要 方法 是 允许 用 户 在 应 用 过 程 中 对 模型 进行 扩 
展 。 

6.1 语义 层次 

图 像 语 义 标注 模型 的 语义 层次 越 全 面 ,所 能 表达 的 
语义 就 越 丰富 。 图 像 的 内 容 特征 可 分 为 三 大 类 , 即 物理 
特征 、 对 象 特征 和 语义 特征 。 其 中 ,物理 特征 不 涉及 图 
像 语义 内 容 , 而 对 象 特征 和 语义 特征 包含 5 种 图 像 语义 
内 容 : 对 象 语义 、 对 象 空间 场景 语义 ,行为 语义 和 情感 
语义 。Eakins 模型 和 Jaimes & Chang 模型 均 包 含 了 从 图 
像 底层 物理 特征 、 对 象 特 征 到 高 层 语义 特征 三 个 层级 的 
图 像 内 容 特 征 ,由 低 到 高 表达 越 来 越 抽 象 的 语义 。 但 两 
者 包含 的 语义 特征 数量 不 同 , Eakins 模型 包含 5 种 主要 
语义 特征 (对 象 语义 、 对 象 空间 、 场 景 语义 、 行 为 语义 和 
情感 语义 ) ,语义 层次 最 全 面 ,所 表达 的 语义 也 最 充分 ; 
Jaimes & Chang 模型 只 包含 3 种 主要 的 语义 特征 (对 象 
语义 场景 语义 和 情感 语义 ) ,缺少 对 对 象 空间 和 行为 语 
义 的 描述 ,所 表达 的 语义 的 全 面 性 和 充分 性 弱 于 Eakins 
模型 。Kong 模型 不 考虑 底层 物理 特征 和 高 层 语义 特征 ， 
直接 从 中 间 层 对 象 特征 着 手 ,直接 对 图 像 中 描述 的 对 象 
及 对 象 的 空间 关系 进行 描述 。 该 模型 包含 两 种 对 象 特 
征 , 即 对 象 语义 和 对 象 空间 ,其 语义 层次 的 全 面 性 和 语 
义 表达 的 充分 性 均 弱 于 Eakins 模型 和 Jamies & Chang 
模型 。 如 表 2 所 示 : 

R2 图 像 语义 标注 模型 的 语义 层次 


将 仅 包含 中 高 层 语义 的 Panofsky 模型 做 了 向 下 语义 
扩展 ,增加 了 对 图 像 底层 视觉 特征 的 描述 (信号 ) ,并 
对 Panofsky 模型 的 图 像 志 做 了 纵向 扩展 ,增加 了 对 象 
和 关系 两 个 层次 。 因 而 ,该 框架 整体 语义 表达 能 
更 强 。 


语义 层次 Eakins 模型 Jaimes & Chang 模型 Kong 模型 
对 象 语义 P P P 

对 象 空间 P p 
场景 语义 P P 

行为 语义 P 

情感 语义 P P 


注 :“P” 表 示 该 模型 包含 相应 的 语义 层次 
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综 上 所 述 ,Eakins 模型 的 语义 最 完整 且 表 达能 力 
最 强 。 人 类 根据 自己 对 图 像 的 理解 和 认 知 获取 的 图 像 
语义 ,往往 是 图 像 的 对 象 语义 和 高 层 语义 ,上 述 核心 模 
型 均 将 这 一 因素 考虑 在 内 ,但 是 都 缺少 对 图 像 所 演 染 
的 氛围 等 其 他 更 抽象 语义 的 描述 ,在 语义 概念 层 的 基 
础 上 ,还 有 可 进一步 扩展 的 空间 。 
6.2 可 扩展 性 

图 像 语义 标注 模型 的 可 扩展 性 对 图 像 检索 系统 的 
生命 力 和 适应 性 有 着 重要 的 影响 。 我 们 对 3 个 核心 模 
型 的 可 扩展 性 进行 总 结 ,将 其 划分 为 强 、 较 强 和 弱 3 个 
等 级 ,如 表 3 所 示 。 这 3 个 核心 模型 均 允 许 用 户 对 模 
型 进行 扩展 ,其 中 ,Eakins 模型 支持 对 语义 层次 的 增 减 
和 语义 层级 的 微调 ,Kong 模型 支持 在 对 象 语义 层 增 加 
TZR, 这 使 得 两 者 均 具 有 良好 的 适应 性 ，Jimes & 


表 3 图 像 语 义 标 注 模型 的 可 扩展 性 


模型 名 称 应 用 中 是 否 可 参考 外 部 知识 。 ”可 扩展 性 
Eakins 模型 是 较 强 
Jaimes & Chang 模型 E 较 弱 
Kong 模型 是 强 


系 ,增强 了 检索 的 准确 率 ” ; 本 体 对 概念 以 及 概念 间 
的 关系 进行 了 详细 的 描述 ,在 分 散 孤 立 的 图 像 间 建 立 
联系 ,增强 了 图 像 间 的 耦合 度 ” ; 本 体 提供 了 独立 于 
特殊 对 象 的 语义 描述 手段 ,有 助 于 实现 语义 信息 的 共 
享 和 重用 78 ;本 体 的 推理 功能 有 助 于 实现 图 像 的 智 
能 检索 。 针 对 不 同 的 应 用 ,可 以 使 用 不 同 的 本 体 来 描 
述 图 像 ,例如 图 像 底 层 特征 可 以 使 用 VDO (visual de- 
scriptor ontology) 本 体 来 描述 ,该 本 体 包含 MPEG -7 的 
视觉 描述 符 和 对 象 视觉 特征 的 概念 和 属性 ” ; 而 中 高 


Ching 模型 虽然 也 允许 用 户 对 模型 进行 扩展 ,主要 支 
寺 谓 义 层次 和 语义 层级 的 增加 ,但 不 支持 在 应 用 过 程 
ER 外 部 知识 ,因此 可 扩展 性 和 适应 性 相对 较 弱 。 

此 外 ,Eakins 模型 和 Kong 模型 均 允 许 在 图 像 语义 
过 程 中 加 入 外 部 知识 (如 相关 的 上 下 文 信息 ) 对 
加 了 虱 进 行 标注 ,以 丰富 图 像 的 语义 ,而 不 是 仅 局 限于 图 
作曲 反映 的 内 容 。Kong 模型 还 采用 了 本 体 技术 ,允许 
用 请 在 硕 层 本 体 的 基础 上 ,根据 领域 知识 构建 个 性 化 
本 体 ,进一步 增强 了 模型 的 可 扩展 性 和 适应 性 。 

它 阁 本 体 技术 运用 于 图 像 语 义 标注 主要 有 以 下 几 点 


层 语义 信息 通常 需要 定义 特定 领域 的 领域 本 体 来 描 
述 。 鉴 于 Kong 模型 的 可 扩展 性 以 及 可 基于 外 部 知识 
进行 个 性 化 定制 的 特性 ,该 模型 的 可 扩展 性 和 适应 性 
最 好 。 
6.3 应 用 范围 与 应 用 方式 

3 个 核心 模型 都 可 用 于 图 像 语义 标注 和 图 像 语 义 
TR ,但 都 没有 对 适用 的 图 像 类 型 和 应 用 领域 做 出 具 
体 的 限制 ,我 们 通过 对 模型 描述 的 语义 信息 进行 分 析 ， 
总 结 了 3 个 核心 模型 适用 的 图 像 特点 和 应 用 情景 ,如 
表 4 所 示 。3 个 图 像 语 义 标 注 模型 ,但 从 模型 描述 的 


UE. 本 体 是 一 种 标准 化 ,规范 化 的 知识 表示 方式 , 运 
用 本 体 进行 领域 建 模 , 提 供 了 领域 内 统一 的 概念 和 关 


语义 信息 可 以 看 出 ,这 3 个 核心 模型 的 应 用 范围 还 是 
有 所 区 别 。 


表 4 图 像 语义 标注 模型 的 应 用 范围 


(模型 名 称 men 


应 用 领域 


Eakins 模型 


感 语义 


以 对 象 和 场景 语义 为 主 , 一 般 不 包含 情感 语义 


Jamies & Chang 模型 
Kong 模型 


Eakins 模型 主要 用 于 图 像 检 索 , 旨 在 改善 图 像 检 
索 系 统 的 性 能 ,提高 检索 系统 的 查 准 率 。 该 模型 能 较 


语义 内 容 人 全面、 多 样 , 主 要 包括 对 象 \ 对 象 空间 、 行 为、 场景 , 情 


以 对 象 和 对 象 空间 语义 为 主 , 一 般 不 包含 情感 语义 


如 艺术 (美术 ,书法 等 ) 历史 等 领域 的 图 像 语 义 标注 


如 建筑 设计 、 地 理 等 领域 的 图 像 标注 
如 生物 医学 医疗 健康 等 领域 的 图 像 标注 


像 中 的 情节 语义 进行 数据 建 模 ,实现 了 该 类 图 像 的 语 
义 标注 与 检索 o MEM ERER HEA RE E 


完整 地 表达 图 像 中 包含 的 对 象 、 对 象 空间 ,行为 .场景 
和 人 情感 语义 ,适用 但 不 限于 艺术 (美术 ,书法 等 ) .历史 
等 领域 的 图 像 语义 标注 。 王 晓 光 和 徐 雷 等 于 2014 年 
提出 了 一 个 敦煌 壁画 数字 图 像 语义 描述 层次 模型 ”， 
该 模型 基于 Eakins 模型 ,通过 加 入 适用 于 敦 煜 壁画 摘 
述 的 术语 表 和 图 像 元 数据 揭示 图 像 的 高 层 语义 ,实现 
了 对 敦 煜 壁画 数字 图 像 的 语义 标注 。2017 年 , 徐 雷 和 
王晓光 以 他 们 提出 的 数字 图 像 语义 描述 层次 模型 为 基 
础 ,结合 叙事 型 图 像 包含 的 情节 语义 信息 ,对 人 氢 事 型 图 
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较 全 面 ,基本 上 可 以 宫 括 对 象 ,对象 空 间 ,行为 ,场景 和 
情感 语义 。 

Jaimes & Chang 模型 主要 用 于 以 检索 为 目的 的 索 
引 和 图 像 描 述 的 分 类 。2001 年 , C，Jirgensen 等 对 
Jaimes & Chang 金字 塔 模型 进行 探索 性 评价 ,通过 将 该 
模型 用 于 图 像 语 义 描述 和 语义 标 引 来 对 其 进行 验证 ， 
结果 表明 该 模型 的 功能 十 分 强大 ,不 仅 可 以 描述 用 于 
检索 的 视觉 内 容 , 指 导 索 引 过 程 ,还 可 以 对 手工 或 自动 
获取 的 描述 进行 分 类 , 较 好 地 涵盖 了 用 户 描 述 和 标注 
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HER, KAR. 数字 图 像 语义 标注 模型 比较 与 分 析 [J]. 图 书 情 报 工作 ,2018 ,62(6) :116 - 124. 


图 像 过 程 中 涉及 的 图 像 特征 2 。Jaimes & Chang 模型 
侧重 于 对 图 像 的 对 象 语义 和 场景 语义 的 细 粒 度 描述 ， 
因而 对 以 对 象 和 场景 为 主 的 图 像 具 有 较 好 的 描述 能 
适用 于 建筑 设计 、 地 理 等 领域 的 图 像 标 注 。 但 因为 该 
模型 不 包含 情感 语义 ,不 适 于 蕴含 情感 的 图 像 的 描述 。 

Kong 模型 也 主要 是 用 于 图 像 检 索 ,一 般 从 图 像 对 
象 层 语义 着 手 来 构建 模型 ,借助 本 体 技术 构建 顶层 本 
体 , 并 允许 用 户 根据 需求 构建 个 性 化 本 体 。 邓 涛 和 史 
婷 婷 等 通过 在 图 像 检 索 系 统 中 进行 实验 ,结果 表明 , 基 
于 个 性 化 本 体 的 图 像 语 义 标 注 和 检索 与 其 他 检索 方式 
(如 借助 搜索 引擎 的 百度 图 片 搜索 ) 相 比 , 查 准 率 得 到 
了 提高 ”” 。Kong 模型 是 一 个 对 象 层 语义 标注 模型 ， 
不 考虑 图 像 物理 特征 和 语义 特征 。 该 模型 对 以 客观 对 
象 为 主要 内 容 的 图 像 具 有 较 强 的 描述 能 力 ,但 一 般 不 
包 价 情感 语义 ,适用 但 不 限于 生物 医学 、 医 疗 健康 等 令 
域 的 图 像 标 注 。 


PF ) 


CO 图 像 语义 标注 模型 是 图 像 语义 标注 和 语义 检索 的 
前 担 与 基础 ,为 其 提供 了 一 种 描述 图 像 内 容 ( 含 底层 视 
党 起 征 和 语义 特征 ) 的 框架 。 本 文 对 4 类 主要 的 图 像 
语 汉 标注 模型 (Eakins 模型 Jaimes & Chang 模型 Kong 
EE. Panofsky 模型 ) 及 其 衍生 模型 进行 了 分 析 和 总 
在 这 4 个 模型 中 , 除 Panofsky 模型 是 一 个 抽象 图 像 
清光 分 析 框架 ,其 余 三 个 模型 都 是 可 以 具体 应 用 的 模 


PER 


HA3 个 方面 对 这 三 类 模型 进行 比较 分 析 。 从 语义 表 
达能 力 上 来 说 ,Fakins 模型 的 语义 层次 最 全 面 ,语义 
表达 能 力 最 强 ; 从 适应 性 上 来 说 ,Kong 模型 的 适应 性 
最 好 ,不 仅 标注 过 程 参考 了 外 部 知识 ,而 且 允 许 用 户 在 
应 用 过 程 中 对 模型 进行 扩展 ,根据 自己 的 专业 知识 和 
需求 构建 个 性 化 本 体 。 从 应 用 范围 上 来 说 ,Eakins 模 
型 应 用 最 广泛 ,许多 研究 人 员 以 该 模型 为 基础 ,相继 提 
了 许多 改进 模型 和 基于 此 模型 的 相关 应 用 ,使 该 模 
型 得 到 了 广泛 认可 。 其 他 两 类 模型 虽然 也 得 到 较 广泛 
的 应 用 ,但 是 相对 于 Eakins 模型 影响 力 较 弱 。 

参考 文献 : 


[ 1 ] SMEULDERS A W M, WORRING M, SANTINI S, et al. Content 


ee 


-based image retrieval at the end of the early years [J]. IEEE 
transactions on pattern analysis and machine intelligence , 2000 , 22 
(12) 11349 - 1379. 

[2] EAKINS J P. Retrieval of still images by content[ M]. Lectures on 
information retrieval. Springer, Berlin, Heidelberg, 2000; 111 — 
138. 


[ 3 ] JAIMES A, CHANG S F. A conceptual framework for indexing vis- 
ual information at multiple levels[ J]. Proceeding of SPIE- The In- 
ternational Society for Optical Engineering. San Jose; IS&T/SPIE 
Internet imaging, 2000 , 3964 ; 2 — 16. 

荣昌 许 . 基于 语义 的 图 像 标注 与 检索 系统 研究 LD]. 武汉 : 武 
汉 大 学 ,2005. 

CHUNG E K, YOON J W. Image needs in the context of image 


[4 


La 


[ 5 


La 


use; an exploratory study [ J ]. Journal of information science, 
2011, 37(2) : 163 - 177. 

[ 6 ] HARE J S, LEWIS P H, ENSER P G B, et al. Mind the gap: an- 
other look at the problem of the semantic gap in image retrieval 
[J]. Multimedia Content Analysis Management & Retrieval, 
2006, spie v. 

[ 7 ] KRAUSE M G. Intellectual problems of indexing picture collections 
[J]. Audiovisual librarian, 1988, 14(2) ; 73 - 81. 


[ 8 ] BURFORD B , BRIGGS P, EAKINS J P. A taxonomy of the im- 


ren 


age: on the classification of content for image retrieval[J]. Visual 
communication , 2003, 2(2) : 123 - 161. 


[ 9 ] BADR Y, CHBEIR R. Automatic image description based on tex- 


La 


tual data [ M ]//Journal on data semantics VII. Berlin, Heidel- 
berg: Springer, 2006. 

[10] EAKINS J P. Automatic image content retrieval-are we getting any- 
where? [ C]//Proceeding of Third International Conference on E- 
lectronic Library and Visual Information Research. De Mont fort U- 
niversity. Milton Keynes: Aslib ,1996 : 123 —125. 

[11] EAKINS J P. Design criteria for a shape retrieval system[ J]. Com- 
puters in industry, 1993, 21(2) : 167 — 184. 

[12] EAKINS J P, GRAHAM M E, BOARDMAN J M, et al. Retrieval 
of trade mark images by shape feature[ C ]//Proceeding of first In- 
ternational conference on electronic library and visual information 
system research. Milton Keynes :De Montfort University, 1996 :101 
— 109. 

[13] PETKOVIC D. Query by image content[ C ]//Oral presentation to 
storage and retrieval for image and video databases. California; San 
Jose ,1996. 

[14] GUDIVADA V N, RAHAVAN V V. Content-based image retrieval 

systems| J]. IEEE computer, 1995, 28(9) ; 18 - 22. 

[15] 武人 杰 . 图 像 层 次 语义 描述 的 初步 研究 [LJ]. 电脑 开发 与 应 

用 ,2011(5) :12 - 14. 

[16] 张 捷 . 图 像 语义 标注 [J. 电脑 开发 与 应 用 ,2012(1) :10 - 12. 

[17] MER, J fg. 基于 情感 的 图 像 检 索 研 究 综述 [jj 情报 理论 与 

实践 ,2013(2 ) :119 - 124. 

[18] 黄 质 纯 . 基于 语义 的 图 像 检索 及 相关 技术 的 研究 [D]. 广 州 : 

华南 理工 大 学 ,2012. 

[19] HONG D, WU J, SINGH S S. Refining image retrieval based on 


context -driven methods [ C ]//Storage and retrieval for image and 
video databases VII. 1998; 581 —592. 
[20] 于 永 新 . 基于 本 体 的 图 像 语义 识别 和 检索 研究 LD]. 天 津 :天 
津 大 学 ,2009. 
[21] 彭 杨 . 基于 本 体 的 动画 素材 图 像 语义 标注 研究 [LD]. 长 沙 : 湖 


123 


图 二 情报 三 作 


第 62 卷 第 6 期 2018 年 3 月 


南 师范 大 学 ,2009. 

[22] JAIMES A, CHANG S F. Model-based classification of visual in- 
formation for content-based retrieval [ C ]// Proceedings of SPIE - 
The International Society for Optical Engineering. 1998 ; 402 — 
414. 

[23] TOUSCH A M, HERBIN S, AUDIBERT J Y. Semantic hierarchies 
for image annotation; a survey[ J]. Pattern recognition, 2012, 45 
(1) : 333 - 345. 

[24] HOLLINK L, SCHREIBER A T, WIELINGA B J, et al. Classifi- 
cation of user image descriptions[ J]. International journal of hu- 
man computer studies, 2004 , 61(5) : 601 —626. 

[25] YOON J W, CHUNG E K. Understanding image needs in daily life 
by analyzing questions in a social Q&A site[ J]. Journal of the As- 
sociation for Information Science & Technology, 2011, 62 (11); 
2201 -2213. 

[26]. KONG H, HWANG M, KIM P. The study on the semantic image 

[ etrieval based on the personalized ontology[ J]. International jour- 

al of information technology, 2006 , 12(2) : 35 -46. 

了 涛 , 郭 雷 , 杨 卫 莉 . 基于 本 体 的 图 像 语 义 标注 与 检索 模型 

J]. 计算 机 工程 ,2008(17) :188 - 190. 

史 婷 婷 , 辣 大 顺 , 沈 玉 利 . 基于 个 性 化 本 体 的 图 像 语义 标注 和 

SARI]. 计算 机 应 用 ,2010(1) :90 -93. 

ANOFSKY E. Meaning in the visual art: papers in and on art his- 

ory[ M]. New York :Doubleday Anchor Books, 1955 :39 —40. 


[30 "SHATFORD S. Analyzing the subject of a picture; a theoretical ap- 


-users queries for image retrieval in American history[ J]. Journal 


of the Association for Information Science and Technology, 2003 , 


5 54(6) : 498 -511. 


[33] CONDUIT N, RAFFERTY P. Constructing an image indexing tem- 
plate for the children’ s society; users? queries and archivists ° 
practice [ J]. Journal of documentation , 2007 , 63 (6) : 898 —919. 

[34] RAFFERTY P, HIDDERLEY R. Flickr and democratic indexing: 
dialogic approaches to indexing[ J]. Aslib Proceedings, 2007, 59 
(4/5) : 397 - 410. 

[35] FAUZI F, BELKHATIR M. Multifaceted conceptual image inde- 
xing on the World Wide Web[ J]. Information processing & man- 
agement, 2013, 49(2) ; 420 - 440. 

[36] KHE, AME, IA Rp. EFRR ERER]. 北京 理 
工大 学 学 报 ,2010(12) 11405 - 1408 ,1431. 

[37] 张杨 , 房 斌 ,人 徐 传 运 , 基于 本 体 和 描述 逻辑 的 图 像 语义 识别 
[C]/ 南 宁 : 全 国安 全 关键 技术 与 应 用 学 术 会 议 . 2009. 

[38] BRACHMAN R J, SCHMOLZE J G. An overview of the KL-ONE 


knowledge representation system[ J ]// Cognitive science, 1985, 9 
(2): 171 -216. 

[39] SIMOU N, TZOUVARAS V, AVRITHIS Y, et al. A visual de- 
scriptor ontology for multimedia reasoning [ C ]//Proceedings of 
workshop on image analysis for multimedia interactive services. 

Montreux, 2005: 13 - 15. 

[40] 王晓光 , 徐 雷 ,李纲 . 敦煌 壁画 数字 图 像 语义 描述 方法 研究 
[J]. 中 国 图 书馆 学 报 ,2014 ,40(1) :50 -59. 

[41] 徐 雷 ,王晓光 . 叙事 型 图 像 语 义 标注 模型 研究 [J 了]. 中 国 图 书 

馆 学 报 ,2017 ,43(5) :70 - 83. 

[42] JORGENSEN C, JAIMES A, BENITEZ A B, et al. A conceptual 


framework and empirical research for classifying visual descriptors 


[J]. Journal of the Association for Information Science and Tech- 


nology, 2001, 52(11) ; 938 —947. 
作者 贡献 说 明 : 
陈 金 莉 :撰写 并 修改 论文 ; 
KER: 提出 研究 方向 并 拟定 研究 要 点 、 修 改 论文 。 


Comparison and Analysis of the Semantic Models for Digital Image Annotation 


Chen Jinju 


Ou Shiyan 


School of Information Management , Nanjing University , Nanjing 210023 


Abstract. [ Purpose/significance] Semantic annotation of digital images is an effective way to solve this problem. 


The foundation of semantic image annotation is the construction of semantic models. This paper intends to review the exist- 


ing mainstream semantic models for image annotation, and explore their advantages and disadvantages. 


[ Method/ 


process] Firstly, four representative semantic models for image annotation were reviewed, including Eakins model, Jaimes 


& Chang model, Kong model and Panofsky model, using literature survey, and then the first three models from three as- 


pects (i.e. semantic level, extensibility and application range) were compared and analyzed using comparative analysis. 


[ Result/conclusion | Through the above analysis, it can be concluded that Eakins model has the most comprehensive se- 


mantic level, the strongest semantic expression ability and the widest application range, whereas Kong model is the most 


scalable and adaptable one. 
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